本文有整理在部落格裡。
裡面還有其他奇怪的文章,有空可以來看看喔。
昨天出現的這句
soup_m1 = BeautifulSoup(html_m1.text, "html.parser")
其中的html.parser
便是使用的解析器,是python內建的。
除了這個外還能用html5lib和lxml但我也沒用過,詳細優缺點可能要google下。
哪天有試了再補充上來吧
比較常用到的是find()、find_all()和select()。
find()、find_all()
兩個都是使用html的標籤進行搜尋的。
而這兩者的差別是find()只會回傳第一個符合的結果,find_all()則會回傳所有符合的結果
select()
使用CSS選擇器(CSS selectors)來進行搜尋。
CSS之前沒有提到,主要是用來把網站上色的。
其中會用到選擇器來指定特定範圍的HTML進行操作。
select()便是利用這東西的語法來爬的。
例子的話看我晚點加上去或一起在專題一講吧。